Zero-Shot 改善論文
https://scrapbox.io/files/657cf33d646988002506d2c1.png
論文情報
タイトル:Fine-Tuned Language Models are Zero-Shot Learners
著者:Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai
所属:Google Research
論文の内容を簡単に
この論文は、Zero-Shot を改善させる方法として、Instuction-tuningが有効だったよと報告している。 Instruction-tuneとは、1370億のパラメーターの事前学習済みの言語モデルを、60この自然言語のインストラクションテンプレートを用いて、ファインチューニングする
https://scrapbox.io/files/657cf82111015400254985f6.png
その性能を出すためには、タスクの数と、モデルの大きさがキーポイント。
内容
概要
この論文は、大規模な言語モデルがゼロショットタスクを実行する能力を向上させるためのシンプルな方法について探求しています。具体的には、FLAN(Finetuned Language Net)というモデルを用い、60以上のNLPデータセットに対する指示に基づいて微調整を行い、未見のタスクタイプに対する性能を評価しています。
抄録
- 本論文では、言語モデルのゼロショット学習能力を向上させるシンプルな方法、具体的には指示チューニングについて探究しています。137Bパラメータの事前学習済み言語モデルに対し、60以上のNLPデータセットを用いた指示に基づく微調整を行いました。この結果、未見のタスクに対するゼロショット性能が大幅に向上し、175B GPT-3を超える結果を達成しました。特に、ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA、StoryClozeといったタスクでGPT-3のフューショット性能を上回ることが明らかになりました。微調整データセットの数、モデルの規模、自然言語の指示が成功の鍵であることが示されました。
イントロダクション
- この研究では、大規模言語モデルのゼロショット性能を改善する方法を探求しています。特に、137Bパラメータの事前学習済み言語モデルを、60以上のNLPデータセットで表現された自然言語の指示に基づいて微調整することで、FLAN(Finetuned Language Net)というモデルを開発しました。微調整は、タスククラスターを基に行われ、評価では未見のタスククラスターに対するゼロショット性能を測定しました。FLANは、未見のタスクでのゼロショット性能において、元の137Bパラメータモデルを大幅に改善し、GPT-3のゼロショットおよびフューショット性能を上回りました。
FLAN: インストラクションチューニングによるZero-Shot学習の改善
- FLANの目的は、言語モデルの指示に対する応答能力を向上させることです。この目的のために、既存のNLPデータセットを指示形式に変換し、複数のタスククラスターに分類しました。指示チューニングの過程では、これらのデータセットを混合し、ランダムにサンプリングして使用しました。各データセットには、自然言語の指示を用いた10個のユニークなテンプレートが手動で作成され、これに基づいて事前学習済み言語モデルが微調整されました。このアプローチは、未見のタスクに対するモデルの性能を評価するために使用されました。
タスク:
https://scrapbox.io/files/657cf95d5e0f22002385bf6e.png
テンプレートを使って、Instruction tuningする流れ:
https://scrapbox.io/files/657cf9741fb7df0024aeb4f2.png
結果
- FLANは、自然言語推論、閉じた質問応答、翻訳など複数のタスクで高い性能を示しました。
https://scrapbox.io/files/657cf8a7897a570023725cd7.png
FLANは、自然言語推論、閉じた質問応答、翻訳、常識推論、照応解決、構造からテキストへのタスクなど、多様なNLPタスクで評価されました。ゼロショット設定下でのFLANの性能は、元の137Bパラメータモデルを大幅に上回り、175B GPT-3のゼロショットおよびフューショット性能を多くのデータセットで上回る結果を示しました。また、指示チューニングによる利点は、モデル規模が大きいほど顕著であり、特に指示に基づくタスク(例えば、NLI、QA、翻訳、構造からテキストへのタスク)で効果的であることが明らかになりました。
アブレーション研究とさらなる分析
- 指示チューニングに使用するタスククラスターの数によって性能が変化することが確認されました。
- モデルの規模によって、指示チューニングの効果が異なることが示されました。
- 指示の有無がゼロショット性能に大きく影響することが確認されました。
- フューショット例示を用いた場合、すべてのタスククラスターで性能が向上しました。
- FLANは、プロンプトチューニングにおいても優れた性能を示しました。
関連研究
- 本研究は、ゼロショット学習、プロンプト、マルチタスク学習、言語モデルなど、複数の研究分野に関連しています。
結論
- 本研究では、指示に基づいたゼロショットタスクの性能向上に焦点を当て、FLANモデルがGPT-3と比較して好ましい結果を示したことが報告されています。
解説動画
https://www.youtube.com/watch?v=34ra-kfXmPA